arxiv：2503.07465v1 [cs.cv] 2025年3月10日__

arxiv：2503.07465v1 [cs.cv] 2025年3月10日

可下载资源数量

已经购买

下载数量：1

单价	0 1.0
Coupon	100% 0%
Total	0 1.0

点击下载点击购买并下载

点击购买，资源将自动在新窗口打开.

机构名称：

arxiv：2503.07465v1 [cs.cv] 2025年3月10日

¥ 1.0

热度

对象检测和细分被广泛用于计算机视觉应用中，但是诸如Yolo系列的传统模型虽然有效而准确，但受预定义的类别的限制，从而阻碍了开放的SCE-Narios的适应性。最近的开放式方法利用文本提示，vi-sual提示或迅速的范式来克服这一点，但由于高计算需求或部署复合物而导致的性能和效率之间经常妥协。在这项工作中，我们介绍了Yoloe，该YOLOE在单个高效的模型中跨越了各种开放及时机制的检测和分割，实现了任何事物。对于文本提示，我们提出了可重新参数的区域文本对齐（REPRTA）策略。它通过重新参数轻巧的辅助网络来完善预处理的文本嵌入，并具有零推理和转移开销的视觉文本对齐。对于视觉提示，我们提出了语义激活的视觉提示编码器（SAVPE）。启用了解耦的语义和激活分支，以最小的复杂性带来了改进的视觉嵌入和准确性。对于迅速的场景，我们引入了懒惰的区域贡献对比（LRPC）策略。它利用大型词汇和专业嵌入中的内置来识别所有对象，避免了昂贵的语言模型。广泛的实验表明，Yoloe的出色零射击性能和可转移性具有较高的下降效率和低训练成本。值得注意的是，在LVIS上，训练成本较小，1.4倍推理加速，Yoloe-V8-S以3.5 AP超过Yolo-Worldv2-S。转移到可可时，Yoloe-V8-L可在封闭式的Yolov8-L上获得0.6 AP B，而较小的训练时间较小4倍。代码和型号可在https：//github.com/thu-mig/yoloe上找到。

添加pdf代下载 VIP点击下载文件